{
 "cells": [
  {
   "cell_type": "code",
   "execution_count": null,
   "id": "85c9c874-99f3-4504-bd08-218bbb068c59",
   "metadata": {},
   "outputs": [],
   "source": [
    "#HI 你好 刘雨薇 242502091 --编辑于2024年12月1日"
   ]
  },
  {
   "cell_type": "code",
   "execution_count": 2,
   "id": "2a8a6ba6-b5b4-4f19-9183-58e78a1c4de3",
   "metadata": {},
   "outputs": [
    {
     "name": "stdout",
     "output_type": "stream",
     "text": [
      "HI\n"
     ]
    }
   ],
   "source": [
    "print('HI')"
   ]
  },
  {
   "cell_type": "markdown",
   "id": "e5579584-27b0-43b2-9ca6-91465125be6b",
   "metadata": {},
   "source": [
    "# 2000—2024年我国高校图书馆文献招标采购研究综述\n",
    "### 【摘要】 \n",
    ">以2000-2024年我国高校图书馆招标采购研究论文为研究对象，使用文献计量分析和主题分析的方法，分别采用计量分析和主题分析的方法，从论文时间分布、核心期刊源分布、主题分布等方面总结我国专家学者对该主题的研究概况、研究内容和研究趋势。指出自身研究方法的不足之处以及对后续研究的的思考与建议。\n",
    "### 【关键词】 \n",
    ">高校图书馆 大学图书馆 招标 采购 综述\n"
   ]
  },
  {
   "cell_type": "markdown",
   "id": "8127aa28-49cb-4db5-8cdf-6597e145aeb6",
   "metadata": {},
   "source": [
    "## 0引言\n",
    "\n",
    ">  &nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;招标采购工作是高校图书馆工作的重要组成部分，也是高校图书馆工作中非常重要的环节。尤其近年来的数字化、信息化浪潮的推动、近年来高校扩大招生，高校图书馆为了满足学校教学与科研对信息资源的需要，对于各类文献信息的采购需求也大大增加。需求的增加同样意味着更多的问题会随之出现，这也吸引了许多专家学者对这些问题进行探索，进而使得采购招标工作得以完善。因此，下文通过收集分析专家学者们对于招标采购方面的文献进行分析，进行简单的总结。\n",
    "### "
   ]
  },
  {
   "cell_type": "markdown",
   "id": "d868bc62-c515-45da-b314-1ddde4fbc309",
   "metadata": {},
   "source": [
    "## 1文献统计及分析\n",
    "### 1.1文献数据来源\n",
    "\n",
    ">&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;在CNKI中国知网数据库的高级检索框内，设定检索主题“高校图书馆”或含“大学图书馆”并且包含“采购”“招标”作为检索词,分别以“全部期刊”和“核心期刊”作为检索范围进行查询，设定检索范围从2000年开始至今。由此得到从2000年开始至今文献检索时间2024年11月23日的总计557篇文献，其中核心期刊上的相关文献为126篇。\n"
   ]
  },
  {
   "cell_type": "markdown",
   "id": "94cd91b5-8d23-4215-a7a2-4eadecb7e449",
   "metadata": {},
   "source": [
    "[知网](https://www.cnki.net/)←点击打开知网"
   ]
  },
  {
   "cell_type": "markdown",
   "id": "1c1286e4-af04-45de-b574-4cf4cab1fd29",
   "metadata": {},
   "source": [
    "\n",
    "### 1.2论文数量的时间分布\n",
    "\n",
    ">&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;根据所选的557篇文献，我使用了知网的计量可视化分析，得到了文献发表年度趋势（图1）、文献主题分布（图2）、论文核心期刊分布情况（图3）。\n"
   ]
  },
  {
   "cell_type": "markdown",
   "id": "d3357ab8-f4fd-4733-836d-956f167f7c67",
   "metadata": {},
   "source": [
    "![图1](图1.png)\n",
    "<center>图1 文献发表年度趋势 </center>"
   ]
  },
  {
   "cell_type": "markdown",
   "id": "8c71979f-854b-4612-8ee6-f9a72f0823ee",
   "metadata": {},
   "source": ">&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;从总体来看，2006年前后开始文章数量开始快速上涨，这可能是由于2006年10月9日，教育部高校图工委和中国图书馆学会高校分会在其网站上公布了《普通高等学校图书馆文献集中采购工作指南》，对高校图书馆图书采购招标进行指导。2007年3月，中国图书馆学会在北京举办的“馆藏资源建设与文献采购招标研讨班”，进一步探究图书馆采购招标工作，使得众多专家学者开始研究高校图书馆图书招标采购。至2009年的文章数量最多，而从2013年出现上升趋势后至今相关文献的发文量呈下降趋势。"
  },
  {
   "cell_type": "code",
   "execution_count": null,
   "id": "f5e4f8e4-b088-4d73-9949-62951d55fec3",
   "metadata": {},
   "outputs": [],
   "source": []
  },
  {
   "cell_type": "markdown",
   "id": "6b35f3e8-6f0b-4d62-9434-fbd3b6c0a7dd",
   "metadata": {},
   "source": [
    "### 1.3主题分析\n",
    ">从图2可以发现，“高校图书馆”、“图书采购”、“图书招标采购”等主题数量占前三位。\n",
    ">\n",
    ">三个主题分别占比为26.74%、18.17%、18.02%，可见近年来随着信息化与市场的发展，招标采购过程中会出现各种各样的问题。此外，对于“图书供应商”、“质量控制”等方面的研究也能更实际的帮助高校图书馆探讨解决招标采购过程中存在的问题。"
   ]
  },
  {
   "cell_type": "markdown",
   "id": "5c5ba696-280b-4d07-a36f-9157524866f7",
   "metadata": {},
   "source": [
    "![图2](图2.png)\n",
    "<center>图2 文献主题分布 </center>"
   ]
  },
  {
   "cell_type": "markdown",
   "id": "dd646377-b6c0-4fa0-8435-7d2de31263eb",
   "metadata": {},
   "source": [
    "### 1.4论文核心期刊源分布\n",
    ">这个部分我在原有的557条文献检索结果的基础上，在结果中筛选出期刊来源为“核心期刊”的126篇文献，并再使用知网的计量可视化分析功能得到图4的核心期刊分布图。\n",
    ">\n",
    ">通过图3，可以很直观地看出图书馆类与图书情报类是主要期刊源，占该主题论文总数的90%以上，其中《图书馆建设》、《图书馆论坛》、《图书馆工作与研究》以及《图书情报工作》是最重要的核心期刊源。"
   ]
  },
  {
   "cell_type": "markdown",
   "id": "e859c371-8e4b-445a-b021-11faa03f1510",
   "metadata": {},
   "source": [
    "![图3](图3.png)\n",
    "<center>图3 论文核心期刊分布情况 </center>"
   ]
  },
  {
   "cell_type": "markdown",
   "id": "ff6cb985-df5d-47cf-8ad9-66e32fdd3f32",
   "metadata": {},
   "source": [
    "## 2研究主题分析\n",
    "### 2.1研究方法与研究流程\n",
    ">主题分析部分主要使用潜在狄利克雷分配（Latent Dirichlet Allocation,LDA）主题模型进行主题建模，进而对数据进行主题分析。LDA是一种重要的大数据分析算法，其作为主题模型分析的典型代表，最大的特点就是能够将若干文档自动编码分类为一定数量的主题，这极大的减少了人为干预和负担。需要注意的是其中的主题数量需要人为指定，本文的主题数量设置以及其它参数设置在后面的LDA参数设置中详细介绍。\n",
    ">\n",
    ">本文的研究流程为：首先，在CNKI中国知网数据库中使用关键词检索获得文献摘要，然后进行人工筛选和分词操作，生成原始语料；其次，运用LDA模型，结合困惑度和主题一致性等指标，确定最优主题数；再者，使用选定的最优主题数对原始语料进行LDA建模，获得“主题—词汇”分布“文档—主题”分布以及pyLDAvis可视化结果；最后，结合内容分析法，梳理2000年至2024年我国高校图书馆招标采购方面的研究进展。"
   ]
  },
  {
   "cell_type": "code",
   "execution_count": null,
   "id": "3a8cc4e0-9482-4cd0-8810-a5c52fb0347e",
   "metadata": {},
   "outputs": [],
   "source": []
  },
  {
   "cell_type": "markdown",
   "id": "88ffe863-9a41-4816-b501-f3508636b358",
   "metadata": {},
   "source": [
    "### 2.2数据收集\n",
    ">这个部分的数据来源，是在计量分析一节中检索的基础上，将每篇文献的作者名、题名、年份、摘要使用知网的导出功能，导出为txt文件（如图4），作为原始语料。但由于知网的选择限制，一次最多只能导出500篇论文的数据，所以这部分我分了两次，才顺利将557篇论文的数据全部导出，最后再手动合并到一个文件中。"
   ]
  },
  {
   "cell_type": "markdown",
   "id": "b7e95a51-3115-48cc-9924-97ce2d1386d4",
   "metadata": {},
   "source": [
    "![图4](图4.png)\n",
    "<center>图4 知网导出原始数据 </center>"
   ]
  },
  {
   "cell_type": "code",
   "execution_count": null,
   "id": "ff324ee3-65dc-4a00-b557-19e905800e40",
   "metadata": {},
   "outputs": [],
   "source": []
  },
  {
   "cell_type": "markdown",
   "id": "49f6656d-84e8-432f-8271-498f3b49d755",
   "metadata": {},
   "source": [
    "### 2.3文本预处理\n",
    ">在进行分词操作前，文献摘要虽然已经可以简洁明了地概述文章研究主题，但要使用模型对其进行分词处理仍然需要对其进行如去除标点符号、用不到的数字等操作、设定适用于文本的“中文停用词表”（如图5）去除无意义词。同时还构建“保留词表”（如图6），保留与主题相关的专有词汇，例如“高校图书馆”、“采购”、“招标”等。最后使用Python中的jieba库，编写相应的代码（如图7），对原始语料进行分词。"
   ]
  },
  {
   "cell_type": "markdown",
   "id": "c5cf2d16-f9e9-441a-982f-2aaf39e27528",
   "metadata": {},
   "source": [
    "![图567](图567.png)"
   ]
  },
  {
   "cell_type": "markdown",
   "id": "120434b4-fbef-4761-9391-bf26d1870529",
   "metadata": {},
   "source": [
    "### 2.4LDA模型参数设置\n",
    ">参数设置对机器学习模型而言非常重要，能够直接影响模型分析结果。LDA模型主要涉及Dirichlet先验α分布、β分布和主题数3个超参数。根据所参考文献中的设置，将α和β分布分别设置为0.1和0.01，主题数则需要经过计算确定。\n",
    ">\n",
    ">主题数通过计算不同主题数量下的的困惑度和一致性确定一个最优主题数。困惑度越低，模型的性能和结果的解释性越好；一致性越高，各主题键的连贯性越高，模型越稳定。这里我所获得的原始语料数据量与参考文献相近，所以同样将主题数区间设置为1到15。\n",
    ">\n",
    ">困惑度一般会随主题数量增加而降低，所以选择局部最小值作为最优主题数更为合适。利用gensim库中ldamodel.log_perplexity接口计算不同主题数量下的困惑度。但在计算困惑度时出现了问题，正常应该出现“手肘形”特征曲线为佳，但经过多次调整计算还是只能计算出单调递减的特征，局部最小值只在14出现，所以这部分还需要再进一步实验考证。\n",
    ">\n"
   ]
  },
  {
   "cell_type": "markdown",
   "id": "446c673a-9a31-458e-b381-dca1512ea7a6",
   "metadata": {},
   "source": [
    "![手肘形](手肘形.png)\n",
    "\n",
    "↑合适的拟合条件下的困惑度曲线应该是这个样子，也就是“手肘形”"
   ]
  },
  {
   "cell_type": "markdown",
   "id": "47ef4d51-852e-47a8-83b8-d0e5a04c73c0",
   "metadata": {},
   "source": [
    ">\n",
    ">其次利用gensim库中models.coherencemodel接口计算不同主题数量下的一致性，在主题数为2、5、7、10、13处有局部最大值（见图8），取得全局最大值，模型最为稳定。经过计算和综合考虑确定最优主题数为10。"
   ]
  },
  {
   "cell_type": "markdown",
   "id": "33c2b02b-e695-4f58-bae4-e21c23e5582f",
   "metadata": {},
   "source": [
    "![图8](evaluation_metrics.png)\n",
    "<center>图8 不同主题数下的困惑度与一致性计算</center>"
   ]
  },
  {
   "cell_type": "markdown",
   "id": "9a4f2cd6-5a75-49bc-923d-1ba49cd98633",
   "metadata": {},
   "source": [
    "### 2.5可视化结果\n",
    ">通过Python3.8中NLP工具库gensim的models.LdaModel接口API对预处理后的语料库进行LDA建模,主题数被设定为10，迭代次数设置为60,得到“主题—词汇”分布和“文档—主题”分布,分别见表1。而后通过numpy和pandas库中的接口，结合已经分析好的LDA模型数据计算各个主题强度，绘制成表2，以强度从高到低排列。 表1展示了10个主题和每个主题排名前12的高概率词汇，“主题”的凝练只依靠了自身对该主题的认识和参考文献中的主题，并没有进过讨论研究，所以缺乏客观性。"
   ]
  },
  {
   "cell_type": "markdown",
   "id": "239e5c2c-a62e-483c-b3e4-c21af773e409",
   "metadata": {},
   "source": [
    "![图9](主题-词汇分布图.png)\n",
    "<center>图9 pyLDAvis可视化结果</center>"
   ]
  },
  {
   "cell_type": "markdown",
   "id": "b11a7afc-d9bc-4d34-8df7-56c8bdc6538a",
   "metadata": {},
   "source": [
    "|编号|主题|主题词汇|\n",
    "|:----:|:----:|:----:|\n",
    "|Topic1|馆配商质量|招标采购、研究、问题、工作、质量、配商、采购工作、文献资源、经费、业务、购书、信息|\n",
    "|Topic2|作用与意义|招标采购, 工作, 政府, 问题, 进行, 意义, 文献, 资源, 数字, 管理, 存在的问题, 评标|\n",
    "|Topic3|采购工作标准|研究、图书馆学、中文、工作、院校、满意度、用户、进行、项目、供应商、文献、高职|\n",
    "|Topic4|存在的问题|招标采购、期刊、质量、问题、工作、进行、中文、业务、采访、存在的问题、文献、招投标|\n",
    "|Topic5|遴选馆配商策略|期刊、招标采购、问题、工作、管理、外文、采访、市场、进行、电子、设备、资源|\n",
    "|Topic6|学术科研|情报、工作、招标采购、学刊、采访、农业、研究、中文、探索、问题、学院、学报|\n",
    "|Topic7|经济效益等|经济、科技情报、开发、管理、质量、招标采购、精细化、应用、中文、进行、工作、地位|\n",
    "|Topic8|管理对策|政府、文献、实践、采访、资源、问题、工作、学报、存在的问题、出版社、图书馆学、学术|\n",
    "|Topic9|采购模式|采访、工作、文献、招标采购、资源、信息、科技、模式、文献资源、数字、实践、质量|\n",
    "|Topic10|质量控制相关|质量、控制、书商、馆藏、采访、中文、政府、问题、招标采购、进行、工作、中标| \n",
    "<center>表1 主题—词汇分布</center>"
   ]
  },
  {
   "cell_type": "markdown",
   "id": "c4429a11-fdb9-4ee9-8f0a-c603d29f5ac8",
   "metadata": {},
   "source": [
    "|    主题    |   主题名称   |  主题强度   |\n",
    "|:--------:|:--------:|:-------:|\n",
    "|  Topic3  |  采购工作标准  | 20.63%  |\n",
    "|  Topic4  |  存在的问题   | 18.22%  |\n",
    "|  Topic2  |  作用与意义   | 12.37%  |\n",
    "|  Topic6  |   学术科研   | 11.26%  |\n",
    "|  Topic1  |  馆配商质量   |  7.47%  |\n",
    "|  Topic5  | 遴选馆配商策略  |  6.07%  |\n",
    "|  Topic8  |   管理对策   |  6.00%  |\n",
    "|  Topic7  |  经济效益等   |  5.83%  |\n",
    "| Topic10  |  质量控制相关  |  5.12%  |\n",
    "|  Topic9  |   采购模式   |  4.89%  |\n",
    "<center>表2 主题强度表</center>"
   ]
  },
  {
   "cell_type": "markdown",
   "id": "621a3b23-8501-4eac-838f-6a640e1c2ea1",
   "metadata": {},
   "source": [
    "## 3 研究内容趋势分析\n",
    ">结合计量分析和主题分析，国内对于高校图书馆文献招标采购的研究主要集中于存在的问题、采购工作标准、作用与意义等方面。\n",
    "\n",
    "#### 3.1 图书采购招标存在的问题\n",
    "> 侯英彩探讨了中文图书采购招标方式存在的问题及对策,指出目前图书馆招标采购方式更偏重经济效益,影响采购图书质量;影响图书时效,延迟采购计划;而且我国图书市场缺乏诚信或能力不足,不能完全履约等。\n",
    "> \n",
    "> 对于期刊招标采购,解登峰、胡远珍、高鼎分析了目前高校图书馆中文期刊招标采购履约过程中面临的共性问题及其成因有如下几点：跨部门多头管理产生的信息障碍造成履约管理不到位、期刊采购合同中合同履行管理条款缺失、供应商附加服务承诺干扰了图书馆的注意力等。\n",
    "\n",
    "#### 3.2 采购工作标准\n",
    "> 国内很多学者对文献尤其是中文图书的采购招标评价指标体系进行了深入分析研究。马晓英针对图书采购招标供应商优选问题,提出采购招标的拟熵权模糊综合评价法,同时分别用专家赋权、熵权、拟熵权三种赋权法对该校2009年图书招标工作进行模糊综合评价,并用Matlab编程实现计算机求解,结果表明该方法简便、实用且评判结果隶属度最高。\n",
    "> \n",
    "> 而对于中文电子图书采购招标评价指标,张晓峰认为此类评价指标应包括:书商提供电子图书的数量与内容质量、著作权解决情况与销售价格及图书馆管理技术等,指出研究分析各项评价指标及其分项指标的内在影响因素、找出科学有效的评价方法、建立完善的评价体系,是做好中文电子图书采购招标工作的首要任务。\n",
    "> \n",
    "> 对于书商服务评价标准方面，曲长生在其硕士论文《图书馆中文图书采购招标书商体系的研究》中采用Delphi法确立评价指标,对各指标重要性进行调查,运用层次分析法对结果进行分析,最后建立指标体系。\n",
    "\n",
    "#### 3.3 作用与意义方面\n",
    "> 对高校图书馆文献采购工作来说,招标采购意义深远。黄卫华认为其显著意义在于:(1)少花钱多买书提高了图书采购资金的使用效益;(2)真正做到了图书采购的阳光操作从源头上遏制了腐败行为的产生保护了国家和读者的利益;(3)有利于将图书馆部分业务与图书招标捆绑外包减轻采编人员工作压力提高购进新书的使用效率;(4)能依法保护图书馆利益和中标供货商利益使双方达到双赢的目的。\n",
    "\n",
    "> 总体来说,大部分学者们普遍认为高校图书馆文献招标采购的方式,不仅提高了购书经费使用效益,而且节省了人力资源,可以更方便地获得增值服务,更好地保证了文献质量,同时还增加了图书采购过程的透明度,避免腐败现象的发生。"
   ]
  },
  {
   "metadata": {},
   "cell_type": "markdown",
   "source": [
    "## 4 研究不足与问题\n",
    "### 4.1 高校图书馆招标采购方面研究的不足\n",
    ">在21世纪初期,受《采购法》和《招投标法》等法律政策的推动,国内学界对高校图书馆采购招标的研究呈现一片繁荣景象,并取得大量颇具影响的研究成果。然而,由数据显示,近十年来关于高校图书馆文献采购招标的论文数量总的趋势呈现出下降的势头,对高校图书馆文献采购招标相关研究的学者逐年减少,近几年我国图书馆领域对文献招标采购的研究成果较少且缺乏连续性,从整体上看,目前我国相关机构以及业界人士对图书馆文献采购招标工作关注度不够,没有足够重视采购招标工作的相关进展。"
   ],
   "id": "e04d6c649094ae98"
  },
  {
   "metadata": {},
   "cell_type": "markdown",
   "source": [
    "### 4.2 本文研究方法中的问题\n",
    ">文章中虽然使用了计量分析与主题分析两种方式来分析文献，但在实现过程中还是遇到了许多问题。\n",
    "> \n",
    ">在主题分析中，为确定最优主题数时计算困惑度就出现了问题，一般来说困惑度曲线出现“手肘形”为佳，这样更能确定最优主题数，但在我的多次计算以及调节停用词表以及保留词表后，计算出来的曲线依旧是单调递减的状态。而后做出的主题-词汇分布表也印证了这一部分的缺陷，在凝练主题词时，主题词汇就非常模糊，难以判断。并且凝练主题的过程，也只是参考前人经验，并没有具体讨论，所以缺乏客观性。这些问题希望后续能够与老师沟通改进。"
   ],
   "id": "38b2160bfae71bc4"
  },
  {
   "metadata": {},
   "cell_type": "markdown",
   "source": [
    "# 参考文献\n",
    ">1 9石剑兰和高波. 《我国高校图书馆近十年文献采购招标研究综述》. 图书馆杂志 37, 期 10 (2018年): 20–30. https://doi.org/10.13663/j.cnki.lj.2018.10.003.\n",
    "> \n",
    ">2卢加文和陈雅. 《2014—2023年我国图书馆用户画像研究进展与主题分析》. 图书情报工作 68, 期 12 (2024年): 138–49. \n",
    "> \n",
    ">3侯英彩. 《高校图书馆采购招标中的问题与对策》. 图书馆杂志 28, 期 7 (2009年): 46–47.\n",
    "> \n",
    ">4解登峰, 胡远珍和高鼎. 《高校图书馆期刊采购合同履约管理研究——以中国海洋大学图书馆为例》. 图书情报工作 56, 期 S1 (2012年): 197–99.\n",
    "> \n",
    ">5马晓英. 《图书采购招标的拟熵权模糊综合评判法及Matlab实现》. 情报科学 27, 期 11 (2009年): 1671–74, 1678.\n",
    "> \n",
    ">6张晓峰. 《中文电子图书采购招标评价指标研究》. 图书馆工作与研究, 期 10 (2009年): 33–34. https://doi.org/10.16384/j.cnki.lwas.2009.10.011.\n",
    "> \n",
    ">7曲长生. 《图书馆中文图书采购招标书商评价体系的研究》. 硕士学位论文, 大连理工大学, 2007. \n",
    "> \n",
    ">8黄卫华. 《高校图书馆图书采购招标的意义、问题及对策》. 图书馆工作与研究, 期 12 (2008年): 50–52. https://doi.org/10.16384/j.cnki.lwas.2008.12.016.\n",
    "\n"
   ],
   "id": "7f3dcaf26d4d6e31"
  },
  {
   "metadata": {},
   "cell_type": "code",
   "outputs": [],
   "execution_count": null,
   "source": "",
   "id": "d02f2825be06753b"
  }
 ],
 "metadata": {
  "kernelspec": {
   "display_name": "Python 3 (ipykernel)",
   "language": "python",
   "name": "python3"
  },
  "language_info": {
   "codemirror_mode": {
    "name": "ipython",
    "version": 3
   },
   "file_extension": ".py",
   "mimetype": "text/x-python",
   "name": "python",
   "nbconvert_exporter": "python",
   "pygments_lexer": "ipython3",
   "version": "3.8.19"
  }
 },
 "nbformat": 4,
 "nbformat_minor": 5
}
